Síguenos en nuestra página de Facebook "Análisis y visualización de datos"
https://www.facebook.com/An%C3%A1lisis-y-visualizaci%C3%B3n-de-datos-100602148375744/?ti=as
La pandemia COVID-19 es uno de los peores desastres que nos ha tocado vivir en México y en el mundo pero todavía más lamentable es la infodemia que se encuentra presente. Si bien nos informamos en conferencias que dan las autoridades, siempre quedan algunas dudas que tal vez no se hablan por el tiempo o falta de preguntas correctas o algún interés particular. Para esto, la Secretaría de Salud en su página de COVID publicó los datos abiertos que utilizan para realizar sus análisis lo cual nos permite explorar más alla de lo que nos muestran, resolver nuestros propios interesés y tratar de estar nosotros informados y no creer lo que algún medio informa sin embargo algunas veces no es sencillo revisar estos datos.
En esta ocasión, decidí trabajar en los los Datos Abiertos de COVID-19 para estar informado pero aprovecho para compartirlo con ustedes para que puedan ver distintas visualizaciones y al mismo tiempo estar informados de algo en el que participamos todos. Al mismo tiempo, si tiene algun interés que quieran ver o explorar y que yo lo pueda hacer me pueden dejar su comentario y actulizare este trabajo en cuento pueda.
Por último, por el momento solo muestro exploración de los datos no modelos o predicciones por qué desde mi punto de vista sería muy irresponsable realizar modelos y predicciones epidemiológicas cuando no estoy especializado en el tema y más en una cuestión de tanta importancia.
En una rápida vista de los datos ya con un correcto formato se verían de la siguente manera (son 35 columnas por lo que puede que vean todas):
Los datos contienen a todos los sujetos que se han analizado hasta el momento tanto confirmados, negativos y pendientes.
El siguiente resultado contiene el número de sujetos(renglones) y el número de variables (columnas) presente:
La tabla contiene las siguientes columnas las cuales pueden revisar para generar nuevas preguntas dependiendo de su interés.
Antes de continuar debemos aclarar algunas variables presentes en los datos que estan realacionadas con fechas:
A partir de la tabla anterior ocupamos la columna RESULTADO para contar a los sujetos con resultado a la prueba de COVID-19 positivos, negativos o pendientes.
Algo que notamos en los datos es la presencia de sujetos que tienen una confirmación en la prueba de COVID-19 pero que su fecha de SINTOMAS fue antes de los primeros casos de COVID-19 en México (finales de Febrero).
En una conferencia se aclaró que estas incosistencias se deben a errores al momento de registrar los datos.
Como primera visualización podemos ver una gráfica de barras los valores NEGATIVOS, POSITIVOS y PENDIENTES por día.
La columnaENTIDAD_RES contiene el Estado de México en el que el sujeto se encuentró al momento de registrar sus datos.
Podemos agrupar los datos y presentarlos en una tabla con un gradiente para mostrar los Estados con mayor número de casos de COVID-19.
O representarlo en una gráfica de barras.
También podemos agrupar los casos confirmados por día y su acumulado.
No solo podemos revisar los casos confirmados también ver el número de fallecimientos por día y su acumulado.
Antes de las visualizaciones observamos otra inconsistencia en sujetos que tienen registrada una fecha de defunción pero antes de que se registrará la fecha de los sintomas o personas con fecha de fallecimiento antes de los primeros casos de COVID-19 en México.
Comó se menciono anteriormente, esto puede ser por un error al registrar los datos.
Una manera de visualizar los datos de confirmados y fallecimientos es mediante un gráfico de área ya que en este caso los fallecimientos contados son un grupo de los sujetos confirmados y podemos comparar su proporción.
O gráficar con barras para cada día.
Utilizando los datos de los casos confirmados, ¿Cuántos ingresaron en hospitales?
Para esto ocupamos la columna TIPO_PACIENTE que contiene valores como Hospitalizado que significa que esta o estuvo presente en un Hospital y Ambulatoria que significa que fue confirmado con COVID-19 pero que no ingreso a un hospital.
Seleccionando a los sujetos confirmados con COVID-19 y que se ingresaron en algún hospital, ¿Cuántos fueron entubados?
Para responder esto ocupamos la columna INTUBADO en la que se señala si el sujeto tuvo que ser intubado como un signo de la complicación de la enfermedad.
Podemos ocupar un gráfico de box plot para saber la distribución de la edad de las personas confirmadas que se encontraron en el hospital.
Podemos crear rangos de edad y observar que grupo es el que ha presentado más casos que requieran hospitalización.
En México siempre se ha mantenido las "noticias" acerca de que los hospitales se encuentran llenos y hemos visto las conferencias acerca de la expansión en hospitales dependendiendo de la situación que se encuentran los Estados. Lamentablemente, con los datos que estamos trabajando en este momento no hay información de esta capacidad en hospitales pero si podemos visualizar el número de personas que se encontraron en los distintos tipos de hospitales.
Otro problema que existe en México son las enfermedades que complican la condición del paciente con COVID-19. Entre las más importantes se encuentran Obesidad, Diabetes e Hipertensión. Observando los datos registrados hasta 2016, México presenta un crecimiento en el porcentaje de adultos con obesidad cada año. La siguente gráfica muestra el porcentaje en distintos paises desde 1975 al 2016, incluyendo Mexico.
Ahora en relación con COVID-19, podemos ver el número de personas confirmadas, saber si presentan obesidad y su condición en el hospital.
La misma situación pero con las otras dos cormobilidades, Diabetes e hipertension que estan estrechamente relacionadas con la Obesidad.
Siguiendo el interés de las co-morbilidades podemos clasificar cada paciente con el número de las enfermades que se mencionaron anteriormente ya que son las que presentaron y presentan un mayor riesgo.
Hasta el momento, solo hemos explorado los datos de las personas confirmadas con COVID-19 desde el inicio de la pandemia en México, no las personas que actualmente presentan la enfermedad.
Usando el número de personas confirmadas con COVID19 y con la población total de cada Estado (datos de 2017) podemos determinar el número total de fallecimientos en cada Estado por cada 100 000 habitantes.
O la otra manera que podemos ver los lamentables fallecimientos es por el total de confirmados de COVID-19 en cada Estado. No es la forma más adecuada de ver estos datos, ya que como han explicado, depende mucho del número de pruebas que se hacen. Por lo que muchas pruebas solo reduciría la proporción de fallecimientos por total de confirmados. Pero puede ser útil para ver algúna localidad en la que la proporcion de falleciemientos aumente y tratar de determinar las posibles causas.
Otra manera de ver la relación entre el número de fallecimientos y el número de confirmados mediante un gráfico denominado scatterplot en el que cada punto representa una entidad Federativa.
El siguiente gráfico muestra los casos confirmados en cada Estado desde el inicio de la pandemia en México hasta el día de hoy.
Ya que los datos presentan tanto el Estado como el minicipio podemos realizar un gráfico denominado treemap que nos permite observar los casos totales por localidad y el tamaño de los cuadros es por número correspondiente.
En el caso de los Recuperados, según los informes de la Secretaría de Salud, son los casos después de 15 días al inicio de los síntomas.
Si seleccionamos los casos confirmados de las últimas dos semanas tendríamos los casos que se consideran activos ya que se toma en cuenta que la enfermedad tiene una duración promedio de 14 días. Puede ser que esta restricción no contemple todos los activos ya que pueden existir casos en los que la recuperación sea lenta sin embargo, una alta proporcion de los casos activos se encuentran con el criterio tomado.
Podemos ocupar estos casos activos para generar un treemap.
También es posible explorar la duración de la epidemia COVID19 en cada uno de los Estados. Esto quiere decir tomar el registro de cuando se dio el primer caso confirmado de COVID19 en cada uno de los Estados y continuar el lapso hasta el último día en el que se registro una confirmació. De esta manera podremos ver si algún Estado ha dejado de tener casos.
Debido a los errores al momento de registrar los datos, como se mencionó anteriormente, se tomarán en cuenta solo los datos a partir de inicios de Marzo 2020 que fue de las fechas oficiales.
Teniendo en cuenta este último gráfico, podemos revisar por día como fueron los distintos casos (no acumulados).
El siguente calendario muestra la intensidad de los casos confirmados en todo México por día. Es necesario considerar que debido a los errores de anotación que se describieron anteriormente el calendario iniciaria en Enero y Febrero cuando no en realidad no fue asi. Sin embargo, no se eliminaron ya que cuentan como casos postivos.
También es posible revisar los casos recuperados y observarlos en un calendario.
Y por último los fallecimientos por día.